یادگیری تقویتی بر مبنای دوپامین به عنوان سیگنال مالتی پلکس شده یادگیری در رفتار مبتنی بر پاداش
پایان نامه
- دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد شاهرود - پژوهشکده برق و کامپیوتر
- نویسنده سید محمدرضا احمدپناهی
- استاد راهنما علی اکبر پویان
- سال انتشار 1393
چکیده
پیشرفت های اخیر سعی در جایگزینی روبات به جای انسان کرده است. روبات ها برای جایگزینی نیاز به یادگیری دارند. با تکامل علوم جدید هر روز روبات ها، برای رسیدن به هدف مورد نظر، بدون نیاز به نظارت انسان پیشرفت می کنند. تاکنون تحقیقات زیادی در مورد یادگیری با نظارت و یا بر اساس مدل انجام شده است. پیدا کردن راهی برای رسیدن به کوتاه ترین مسیر موجود از مکان فعلی تا مقصد در محیط ناشناخته مشکل بزرگی در راه یادگیری تقویتی می باشد. ما این اقدام را در این پایان نامه انجام داده ایم. هدف ما در این رساله، یافتن کوتاه ترین مسیر تا مقصد و در عین حال با ارزش ترین مسیر در محیط ناشناخته و در n بعد می باشد. یافتن کوتاه ترین مسیر به معنی وجود یک راه فیزیکی تا هدف نیست. اساس کار، پیاده سازی بر اساس مدل آزاد است تا قابل اجرا در هر فضایی باشد. برای رسیدن به هدف یادگیری، الگوریتم کلونی مورچگان را با یادگیری تقویتی ترکیب کردیم و ماتریس فرومون را ساختیم. با الگو برداری از ترشح دوپامین از کیسه ی کوچکی بنام وزیکول در مغز انسان، پاداش تاخیری را پیاده سازی کردیم و باعث ایجاد همگرایی کران پیش بینی پاداش به سمت پاداش واقعی شدیم.
منابع مشابه
راهکارکنترل مقاوم مبتنی بر یادگیری تقویتی به منظور توانبخشی حرکتی بازوی دست
توانبخشی حرکتی از مباحث مورد توجه محققان است. در اینتحقیق، یک راهکار کنترلی به منظور کنترل حرکت مدلی از بازوی دست با سه مفصل ارائه شده است. در مدل مورد استفاده، اثر فعالسازی همزمان عضلات آگونیست و آنتاگونیست مفصل مچ دست با استفاده از مکانیزم فریز سازی لحاظ شده است. با الهام از عملکرد سیستم اعصاب مرکزی در کسب مهارتهای حرکتی، راهکار کنترلی ارئه شده مبتنی بر یکی از الگوریتم های یادگیری تقویتی توس...
متن کاملمقایسه تأثیر وضعیت طاق باز و دمر بر وضعیت تنفسی نوزادان نارس مبتلا به سندرم دیسترس تنفسی حاد تحت درمان با پروتکل Insure
کچ ی هد پ ی ش مز ی هن ه و فد : ساسا د مردنس رد نامرد ي سفنت سرتس ي ظنت نادازون داح ي سکا لدابت م ي و نژ د ي سکا ي د هدوب نبرک تسا طسوت هک کبس اـه ي ناـمرد ي فلتخم ي هلمجزا لکتورپ INSURE ماجنا م ي دوش ا اذل . ي هعلاطم ن فدهاب اقم ي هس عضو ي ت اه ي ندب ي عضو رب رمد و زاب قاط ي سفنت ت ي هـب لاتـبم سراـن نادازون ردنس د م ي سفنت سرتس ي لکتورپ اب نامرد تحت داح INSURE ماجنا درگ ...
متن کاملپیشبینی روند حرکتی قیمت سهام با استفاده از XCS مبتنی بر الگوریتم ژنتیک و یادگیری تقویتی
پیشرفتها در حوزۀ هوش مصنوعی و یادگیری ماشین بهخصوص درزمینۀ محاسبات تکاملی نهتنها ما را قادر به تجزیهوتحلیل مؤثرتر دادهها نموده است، بلکه این امکان را فراهم ساخته که از آنها برای فهم هرگونه الگوی زیربنایی بازارهای مالی استفاده گردد. اقتصاددانان، آماردانان و مدرسان امور مالی همواره علاقهمند به توسعه و آزمایش مدلهای رفتاری قیمت سهام بودهاند. XCS سامانهای مرکب از الگوریتم ژنتیک و یادگیری ...
متن کاملکنترلکننده مقاوم تطبیقی بار فرکانس مبتنی بر یادگیری تقویتی برای یک سیستم قدرت بههمپیوسته شامل SMES
هدف از این مقاله استفاده از یادگیری تقویتی برای طراحی کنترلکنندههای PID و SMES مقاوم و تطبیقی برای کنترل بار فرکانسی در یک سیستم قدرت دو ناحیهای حرارتی است. ابتدا تنظیم پارامترهای کنترلکنندههای PID و SMES بهصورت یک مسئله بهینهسازی مدلشده توسط الگوریتم تدریس - یادگیری اصلاحشده حل میشود. سپس عملکرد همزمان آنها با استفاده از الگوریتم پیشنهادی مبتنی بر یادگیری تقویتی بهینه میگردد. کنتر...
متن کاملطراحی مسیر بهینه برای رباتها بر مبنای یادگیری تقویتی
در دهه اخیر هوشمندسازی ربات ها مورد توجه بسیاری از پژوهشگران در زمینه مهندسی رباتیک و هوش مصنوعی قرار گرفته است. از چالش های پیشروی پژوهشگران در این زمینه ساخت ربات هایی است که دارای قابلیت یادگیری و تطبیق پذیری باشند. هدف از این پایان نامه استفاده از روش های یادگیری تقویتی برای طراحی مسیر بهینه برای ربات ها می باشد. در این مطالعه روشی نو برای یادگیری مسیر بهینه حرکت ربات های بازو از طریق تعامل...
بررسی تأثیر یادگیری مبتنی بر تیم (TBL)، بر یادگیری حسابداری
تقریباً از سال 1984 تا به امروز کمیته و انجمنهای حرفهای حسابداری مانند AAA، IAES و AEC بیان کردهاند که سیستم آموزشی و یادگیری حسابداری نیازمند تغییر است و یکی از مهمترین اشاره آنها مربوط به فقدان یادگیری فعال بوده است. پژوهش حاضر با هدف بررسی تأثیر یادگیری مبتنی بر تیم (TBL) بهعنوان یک تکنیک یادگیری فعال، بر یادگیری دانشجویان حسابداری میانه 1 در مقایسه با روش سنتی (معلم محور)، انجام شده است...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد شاهرود - پژوهشکده برق و کامپیوتر
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023